[レポート] クラスメソッドxメソドロジック共催:イチから始めるデータ活用!『Snowflake編』を開催しました。
アライアンス事業部 エンジニアグループ モダンデータスタック(MDS)チームのしんやです。
先日2024年02月28日(水)、クラスメソッド株式会社と株式会社メソドロジックの共催イベント『【毎週開催】メソドロジック社共催!イチから始めるデータ活用!8週連続ウェビナー』の第2回開催回である『Snowflake編』を開催しました。
当エントリではその内容についてレポート致します。
目次
イベント概要
第1回目となる今回取り扱うテーマは『イチから学ぶSnowflake』です。
ちなみにプレスリリースで告知・紹介を行ったシリーズ開催内容は以下の通りとなっています。
- 1日目:2024年02月20日(火) イチから学ぶデータメッシュによるデータガバナンス
- 2日目:2024年02月28日(水) イチから学ぶSnowflake
- 3日目:2024年03月06日(水) イチから学ぶDatabricks
- 4日目:2024年03月13日(水) イチから学ぶImmuta
- 5日目:2024年03月21日(木) イチから学ぶFivetran
- 6日目:2024年03月28日(木) イチから学ぶdbt
- 7日目:2024年04月03日(水) イチから学ぶHightouch
- 8日目:2024年04月10日(水) イチから学ぶLooker
参考:
前回第1回目の開催レポートは以下をご参照ください。
イベントレポート
イチから学ぶSnowflake
- 登壇者:白石 章氏(株式会社メソドロジック 代表取締役)
00.はじめに
- 企業紹介及び自己紹介
- メソドロジック社はSnowflake及びdatabricksのパートナー。databricksの方が時期としては早い。
- Databricksをやってたからこそ分かる、Snowflakeの面白い話が出来れば。
01. Snowflakeとは
- 概要説明
- 2012年誕生、マルチクラウドベースのSaaS型データウェアハウスのプラットフォームであり、データの格納や処理、分析を効果的に行うソリューションを提供。
- クラウドレイヤーサービスで管理
- クエリ処理は仮想ウェアハウスで処理
- マイクロパーティションのストレージ
- Snowflakeの紹介に関しては下記動画も参照。 -
- 2012年誕生、マルチクラウドベースのSaaS型データウェアハウスのプラットフォームであり、データの格納や処理、分析を効果的に行うソリューションを提供。
- 今回はSnowflakeの特徴的な機能、これだけは覚えて帰って欲しい!というようなものを紹介。
- 分離されたコンピューティングリソースとストレージ
- Snowflakeではこの2つを分離している。これにより効果的なスケールアップ・スケールアウトが可能に。
- 仮想ウェアハウスの多重化と従量課金
- 「ウェアハウスが稼働しただけ」を請求
- クエリ実行が来た際に自動起動、一定期間実行が無いときは自動停止、といったことも出来る
- SQLベースのクエリ言語をサポート
- 従来のデータウェアハウスと同様にSQLクエリを使用してデータにアクセス可能
- データのシェアリングとコラボレーション
- 異なるSnowflakeインスタンス間でのデータ共有が実現可能。異なる組織やビジネスパートナーとのデータ共有が容易に
- ゼロコピークローン
- データベース、スキーマ、テーブルをスナップショットで高速に複製可能
- マイクロパーティションによりデータ自体を全てコピーせずに実現するため、容量も節約出来る
- フェイルセーフ・タイムトラベル
- 過去のデータにクエリ/複製/リストアが可能
02. データ基盤にSnowflakeを選択する
- データ分析基盤を導入する際の注意点:データを一箇所に集めてSnowflakeは大丈夫なのか?→大丈夫です。マルチクラウドDWHであるSnowflakeはデータ分析基盤の中核として構成されている
- Snowflakeだけでデータ分析基盤は出来るのか?
- SnowflakeはDWHとしては優れたソリューションだが、DWHだけでは分析基盤は完成しない。
- BIツール、ETLツールとの連携が必要
- SQLでの開発・テスト管理が大変
- 機械学習やデータカタログといった機能は(Snowflakeには)無い
- SnowflakeはDWHとしては優れたソリューションだが、DWHだけでは分析基盤は完成しない。
- Snowflakeの「パートナーコネクト」 を活用すると、Snowflakeの周辺サービスを連携してデータ分析基盤をすぐに活用出来る。これが所謂『モダンデータスタック(Modern Data Stack)』。
03. SnowflakeによるDataMesh(データメッシュ)のアプローチ
- Snowflake for Data Mesh
- DataMeshの4原則
- この↑アーキテクチャをSnowflakeで実現する。実現する際に重要なポイントは以下の通り。
- アクセス権管理
- データガバナンス
- 意思決定
- DataMeshアーキテクチャのドメイン所有権の原則:ドメインチームがデータの責任を追うことが義務付けられており、分析データドメインを中心に構成する必要がある。
- Snowflakeによるデータメッシュへのアプローチは以下の方法・ソリューションで実現可能。
- 図示すると以下のようになる。
- Role-based Access Control(RBAC)
- 検証を進めたものがあり、サンプルで作ったものの適用を進めている。
- また、これを踏まえたアクセス制御についても諸々検証等を進めている。
04. 本日のまとめ
- Snowflakeはモダンデータスタックの中核。他のツールやサービスと連携することでより早期に効率良くデータ基盤が活用出来るようになる
- 次回は『Databricksで実現するDatamesh』。お楽しみに!
- DatabricksとSnowflakeの連携もご紹介。
データ活用支援サービスのご紹介
- 登壇者:よりより(クラスメソッド株式会社 アライアンス事業部 セールスグループ)
基本的な内容は前回第1回の内容と同様のため割愛。ここでは差分の情報を追加で紹介します。
クラスメソッドでは、Snowflakeに関して下記のようにお客様のご要望に応じた形で支援内容を提供しています。
また、前回第1回で紹介した『データガバナンス』を踏まえた体制を構成するポイントとして、以下の内容を挙げています。
全体質疑応答
セッション終了後は、全体を通して挙がっていた質問に対する回答タイムとなりました。挙がっていたものの中で主だったものについて下記に記載します。
Q1.他のETLツールとの違いを教えて欲しい。逆にSnowflakeであまり『おすすめしない使い方』などがあれば教えて欲しい。
- A. Snowflakeはデータウェアハウス(DWH)という製品分類となります。なのでETLツールとは使い方が異なります。
Q2. Databricksとの違いを先出しで教えて頂ければと。
- A. 元々Snowflake自体はデータベース、データウェアハウス由来のもので、DatabricksはHadoopやSparkといった分散処理フレームワーク由来という部分であるというのが特徴、分かりやすい大きな違いではあります。かつDatabricksはBI、データカタログ、機械学習といった部分を自分たちでやってしまおうという発想に舵を切っているというのもあります。SnowflakeはそんなDatabricksに対し、SnowparkやSnowpipe等を出してきてDatabricksの領域に近付こうとしていると見ています。お客様からすると(SQLで扱える、という点から)Snowflakeの方が分かりやすいイメージではないでしょうか。
Q3. データウェアハウスを使うべきユースケースはどのようなものがある?
- A. データウェアハウスとデータベースは特性を見極めて使うのがポイントです。データベースは更新処理に強い。トランザクションを更新するような業務システムに効力を発揮します。データウェアハウスは大量データを扱いたい時に適しています。参照に強いです。
まとめ
という訳で、クラスメソッドxメソドロジック共催:イチから始めるデータ活用! 8週連続ウェビナーの第2回、『Snowflake編』開催レポートでした。
当レポートのセッション内容について、また施策・御支援内容についてのお問い合わせに関しては下記のサイトから宜しくお願い致します。
次回第3回は2024年03月06日(水)、『イチから学ぶDatabricks』編です。お楽しみに!